WYZWANIE: Analiza danych

Cel: Celem zadania jest wykzazanie się umiejętnościami rozumienia i analizy danych w formie szeregu czasowego.

Opis zadania

  1. Pobierz dane z: https://archive.ics.uci.edu/ml/datasets/Air+Quality#
  2. Narysuj na wykresie średnią wartość wilgotności powietrza (cecha RH - Relative Humidity (%)) w kolejnych dniach. Wyświetl tytuł wykresu i podpisz osie
  3. Znajdź i wypełnij wartości puste cechy RH jej medianą
  4. Znajdź wartości odstające (outliery) zmiennej RH. Dodaj nową kolumnę "outlier" przyjmującą wartości True/False w zależności od tego czy wartość została zidentyfikowana jako outlier. Narysuj nowy wykres zmiennej RH: oś x - indeks próbki, oś y - wartość RH. Kolorem czerwonym zaznacz na wykresie outliery. Dodaj legendę
  5. Narysuj histogram zmiennej T (temperatura). Sporządź krótkie wnioski
  6. Zbadaj korelację cechy RH i T. Przedstaw wyniki z wykorzystaniem macierzy korelacji. Napisz krótnie wnioski

1. Pobranie i wyświetlenie danych

2. Średnia wartość wilgotności powietrza

Powyższy wykres przedstawia średnią wartość wilgotności powietrza [%]. Dlatego też wykres zaczyna się od 0 dla osi y. Dla powyższej animacji należałoby ustawić także identyczną skalę.

Powyższy wykres przedstawia wartości wprost z danych. Przy przedstawianiu danych tego typu warto byłoby najpierw usunąć wartości brakujące, ponieważ w tym momencie jest on nieczytelny.

3. Znalezienie i wypełnienie wartości pustych dla cechy RH - jej medianą

4. Znajdź wartości odstające (outliery) zmiennej RH. Dodaj nową kolumnę "outlier" przyjmującą wartości True/False w zależności od tego czy wartość została zidentyfikowana jako outlier. Narysuj nowy wykres zmiennej RH: oś x - indeks próbki, oś y - wartość RH. Kolorem czerwonym zaznacz na wykresie outliery. Dodaj legendę.

5. Narysuj histogram zmiennej T (temperatura). Sporządź krótkie wnioski.

Na poniższym histogramie można zauważyć, że występują wartości brakujące (-200). Rysując drugi histogram założono, że temperatura poniżej -20 stopni nie będzie brana pod uwagę - założono, że we Włoszech ciężko o temperatury poniżej -20 stopni. Można nawet wykluczyć wszystkie pomiary poniże 0 stopni C w ciągu dnia.

6. Zbadaj korelację cechy RH i T. Przedstaw wyniki z wykorzystaniem macierzy korelacji. Napisz krótnie wnioski

Cecha RH i T korelują ze sobą. Wilgotność i temperatura mocno zależą od siebie.